05. Q 学习

Q 学习

注意:因为 SARSA 和 Q 学习都是 TD 方法,它们都有一个缺点,即使用非线性算法逼近时,可能无法收敛于全局最优。

阅读延伸